Параметрический корпус русского языка RuParam
Аннотация:
Введение. Основная функция больших языковых моделей заключается в наиболее точной имитации поведения носителей языка. Для того чтобы отслеживать прогресс в решении этой задачи при разработке моделей, а также сравнивать конкурирующие модели между собой, необходимо создание наборов данных для объективной оценки. Распространенный тип таких наборов данных — это корпуса лингвистической приемлемости. Создание таких корпусов основывается на гипотезе о том, что большие языковые модели, как и носители языка, должны быть способны отличать грамматичные предложения от неграмматичных, которые нарушают правила грамматики целевого языка или языков. Метод. В работе представлен новый параметрический корпус для русского языка RuParam. Корпус содержит 9,5 тыс. минимальных пар предложений, различающихся по грамматичности, где каждому верному предложению соответствует минимально отличающееся от него ошибочное. Источник неграмматичности в каждой паре сопровождается экспертной лингвистической разметкой. RuParam состоит из двух частей. В первой части используется новый для задачи тестирования больших языковых моделей источник данных — лексико-грамматические тесты по русскому языку как иностранному. Вторая часть состоит из модифицированных корпусных примеров, представляющих грамматические феномены, не входящие в программу преподавания русского языка как иностранного в силу своей сложности. Основные результаты. Проведенные эксперименты над моделями показали, что наиболее высокий результат достигается моделями, при обучении которых русскому языку уделялось максимально пристальное внимание на всех этапах обучения, от подготовки данных и токенизации до написания инструкций и обучения с подкреплением (прежде всего YandexGPT и GigaChat). Мультиязычные модели, для которых не было сделано специального акцента на русском языке, показали существенно более низкие результаты. Тем не менее, даже лучшие результаты моделей далеки от оценки людей, которые справляются с задачей практически со 100 % точностью. Обсуждение. Ранжирование моделей, полученное в ходе эксперимента, показывает, что разработанный корпус действительно отражает степень владения русским языком. Полученный рейтинг может быть полезен при выборе модели для решения задач обработки естественного языка, где требуется знание грамматики: например, построение морфологических и синтаксических парсеров. В дальнейшем предложенный корпус может быть использован для тестирования собственных моделей.
Ключевые слова:
Постоянный URL
Статьи в номере
- Разработка и изготовление коллимирующей волоконной сферической микролинзы для системы вывода излучения из радиофотонных компонент в оптическое волокно
- От триасового периода к современности: спектроскопия комбинационного рассеяния света для дифференциации ископаемых смол различного возраста
- Оптимизация геометрии двумерного фотоннокристаллического волновода для телекоммуникационных применений и сенсорики
- Разработка и исследование способов подавления аддитивных шумов в волоконнооптических интерферометрических датчиках
- Методика компенсации постоянной составляющей шумов рефлектограммы волоконно-оптической линии связи в условиях недостаточного динамического диапазона оптического рефлектометра обратного рассеяния во временной области
- Исследование метода измерения веса подвижных объектов на основе квазираспределенных волоконных решеток Брэгга с температурной компенсацией
- Современные оптические методы бесконтактных геометрических измерений и восстановления 3D-формы поверхности объектов: обзор
- Спектрально-люминесцентные свойства серебряных кластеров Ag1–5 в ионообменном слое силикатного стекла
- Формирование толстого слоя ε-Ga2O3 на подслое GaN с V-дефектами на границе раздела
- Модель обеспечения непрерывности безопасного функционирования системы прослеживаемости качества продукции в условиях неустойчивой коммуникации
- Применение марковских цепей Монте-Карло и машинного обучения для поиска активного модуля в биологических графах
- Обнаружение дефектов твердых поверхностей при ограниченном объеме данных на основе SSD-детектора и сиамских сетей
- Анализ настроений арабских твитов с использованием контролируемого машинного обучения
- Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике
- Повышение безопасности Kubernetes с помощью машинного обучения: проактивный подход к обнаружению аномалий
- Многозадачное обучение на основе префиксов для устойчивого текстового поиска
- Улучшение вопросно-ответных систем в области программирования с дообучением языковых моделей на структурированных разнородных данных онлайн-форумов
- Язык спецификации взаимодействия автоматных объектов
- Особенности организации игрового взаимодействия асимметричных агентов с использованием графовых нейронных сетей
- Разработка и моделирование технологической схемы установки паровой конверсии метана с кислородным сжиганием топлива и улавливанием углекислого газа
- Исследование стабильности гибридной МОП-мемристорной памяти с использованием модифицированного метода оптимизации роя частиц
- Анализ уязвимости нейросетевых моделей YOLO к атаке Fast Sign Gradient Method